SDXL baseでのCLIPの使い分け
SDXL baseではtext encoderにOpenCLIP ViT-G/14とCLIP-ViT/Lを使っている
のでそれぞれに別のプロンプトを入れることができる
が、意味はあるのか?
https://docs.google.com/document/d/144xqK_QSIbP-yJxQsztgRfm5S80rpK-UUrz0mqLy5gg/editBlueFaux’s CLIP G vs Clip L Quick Dive
https://gyazo.com/79e720b2e19a527e6f4a00d13beccf54
CLIP GとCLIP Lの違いについて簡単に調べてみたところ、両方のポジティブプロンプトが揃っている場合に最高の結果が得られることがわかった。https://www.reddit.com/r/StableDiffusion/comments/15ggn9w/sdxl_mini_study_clip_g_vs_clip_l_best_prompting/
今のところどちらのtext encoderにも同じプロンプトを入れておくのが良い
lllyasvielさんも同じことを言っているhttps://github.com/lllyasviel/Fooocus#list-of-hidden-tricks
ちなみにComfyUIにはtext encoderとしてCLIPTextEncodeノードとCLIPTextEncodeSDXLノードがある
CLIPTextEncodeSDXLノードのCLIP GとCLIP Lに同じプロンプトを入れる場合はどちらを使っても同じ結果になる(位置情報を変更すると当然変わる)
https://gyazo.com/7689fb4371c12c26c53fe601e3caf13f
SDXL CLIP G-L.json